AI资讯新闻榜单内容搜索-LLM

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

8835 点击 2025-06-22 16:08

ICML 2025 Oral | NAS老树开新花，NUS提出智能体超网，成本狂降55%

LLM 智能体的时代，单个 Agent 的能力已到瓶颈，组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功

来自主题: AI技术研报

9077 点击 2025-06-21 17:05

Granola：ChatGPT、Notion 都入场的 AI 纪要，能真正沉淀工作流吗？

LLM 和 agent 最关键的能力之一就是基于 context 来准确完成用户的任务，而最真实、鲜活的 context 往往不在 Google doc 等文档中，而是存在人与人的对话中，纪要就承载着这一类高价值信息。

来自主题: AI资讯

10076 点击 2025-06-18 16:15

想知道你的LLM API被过度收费了吗？隐藏的Tokens终于可以被审计了

近年来，大型语言模型（LLM）在处理复杂任务方面取得了显著进展，尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升，往往依赖于模型内部一系列复杂的「思考」过程或 Agentic System 中的 Agent 间频繁信息交互。

来自主题: AI技术研报

9086 点击 2025-06-18 11:05

逐个token太慢！大模型原生并行出token，CMU、英伟达新作Multiverse

原生并行生成不仅仅是加速，它是我们对 LLM 推理思考方式的根本转变。

来自主题: AI技术研报

11188 点击 2025-06-18 10:53

北航等机构发布最新综述：大语言模型集成 | ArXiv 2025

LLM Ensemble（大语言模型集成）在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段，综合考虑并利用多个大语言模型（每个模型都旨在处理用户查询），从而发挥它们各自的优势。大语言模型的广泛可得性，以及其开箱即用的特性和各个模型所具备的不同优势，极大地推动了 LLM Ensemble 领域的发展。

来自主题: AI技术研报

10004 点击 2025-06-17 17:03

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型，MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势，这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报

9396 点击 2025-06-16 15:24